java爬蟲挑戰 Day 26 - 從 IP 封鎖到 Proxy 的應用 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2024 iThome 鐵人賽

DAY 26

Software Development

java爬蟲挑戰 Day 26 - 從 IP 封鎖到 Proxy 的應用

16th鐵人賽

1615 瀏覽

用網頁爬蟲時，網站通常會有一些機制來阻止大量的自動化請求，保護伺服器資源。
因此，瞭解如何避開這些防爬蟲機制是我們在開發爬蟲時不可忽視的課題。

當我們開發爬蟲時，理應尊重網站上的 robots.txt 文件，它主要用來告訴爬蟲哪些頁面是可以爬取的，哪些頁面是禁止爬取的。

舉例來說，當我們訪問一個網站時，可以通過 https://www.google.com/robots.txt 來查看該網站的爬蟲規則。這些規則包含 "Disallow" 和 "Allow" 指令，用來告訴爬蟲哪個路徑可以被爬取，哪個不行。
可以看到google有明確的規範哪些可以爬，哪些禁止:

接著再看一下我們的目標 591
https://rent.591.com.tw/robots.txt

可以看到591並沒有明確的規定，但也不代表我們可以隨意的爬取591的資料，造成他們伺服器的負擔。

大多數網站都不會完全依賴 robots.txt 來防止爬蟲，它們會採取更強大的防爬措施，以限制高頻的自動化請求。常見的防爬措施包括：

頻率限制（Rate Limiting）及 IP 封鎖：當爬蟲以過高的頻率發送請求時，網站會設定一個限制，超過這個限制的請求將被暫時或永久封鎖 IP 地址。這是許多網站採用的一種常見且有效的防禦方式。
驗證碼（CAPTCHA）：網站可以通過驗證碼來確認請求是否來自於真人操作，而不是自動化程式。驗證碼的應用對爬蟲來說是很大的阻礙。
User-Agent 檢測：網站可以根據請求中所帶的 User-Agent 字串來判斷請求的來源。如果網站發現大量異常的 User-Agent，例如標示爬蟲工具或過於單一的模式，可能會進行封鎖。
Cookie 和 Session 驗證：有些網站會檢查用戶的 Session 或 Cookie，確保訪問是來自有效的使用者行為。

網站可以通過監控來自不同 IP 的流量，當檢測到某個 IP 短時間內發送了過多的請求，或者以不尋常的模式進行瀏覽，網站就可能暫時或永久封鎖這個 IP。

IP 封鎖的實作原理通常涉及以下幾種方式：

雖然網站有各種方法來封鎖爬蟲，但我們也有一些策略來避免被封鎖。以下是幾種常用的技巧：

切換 User-Agent：每個瀏覽器和裝置都會發送一個 User-Agent 標頭來表明請求來自哪種設備或軟件。我們可以在爬蟲中隨機切換 User-Agent，讓網站難以檢測出我們是爬蟲。
模擬人類行為：在每次請求之間加入隨機的延遲，模擬人類瀏覽網頁的行為，避免高頻率的請求。
IP 代理：使用代理來切換請求的 IP，這樣即便某個 IP 被封鎖，爬蟲還可以繼續使用其他代理 IP 繼續工作。
處理驗證碼：有些自動化工具能夠處理簡單的驗證碼，但如果遇到更高級的驗證機制，可能需要手動介入。